查看原文
其他

特别推荐丨老姚专栏:辛普森悖论、异质性与DID模型

姚耀军 杨奇明 数据Seminar 2021-06-03

摘要:小学男女生学习成绩的异质性可能导致班级间按性别分组的成绩排名和汇总成绩排名相悖。通过这一例子,本文引出了著名的辛普森悖论。处理效果的异质性与处理的非随机分配是辛普森悖论出现的两个必要条件。按照计量经济学原理,辛普森悖论本质上属于模型设定时未控制异质性而产生的遗漏变量偏误,可以借助DID模型加以解决。     




 一、从张老师的烦恼说起 


 

小学期末考试成绩出来了,学校对每个班的成绩进行综合排名,而张老师为此烦恼不已——在他担任班主任的班级,男生的平均成绩与女生的平均成绩均在全年级排名第一,但在综合排名中,该班却排名居中。没错,在各个分组比较中均占据优,却在综合评估中失势。其实,如果这位张老师学过统计学,就不会那么奇怪,因为这是一个被称为辛普森悖论的著名统计现象。

关于成绩排名的辛普森悖论,根源于男女生成绩的性别异质性——小学阶段的女生在心智上比同龄男生更成熟,故学习效果以及学习成绩更好。这种异质性会导致班级中学生性别比例对班级平均成绩产生重要影响。因此,当各班级学生性别比例存在明显差异时,基于班级平均成绩进行综合排名其实是不公平。具体来说,那些女生占比较高的班级显然会在综合评估中占优势,而这显然不能归因于不是班主任的工作贡献。

在现实生活中,异质性无处不在,我们不能回避。那么,究竟该如何控制各种异质性对综合比较的“污染”呢?首先必须对问题本身有深刻的认识。具体来说,我们必须基于理论、常识或者经验,对异质性“污染”综合比较背后的机理加以剖析,进而找到合适的应对方法。

事实上,如果我们可以事先利用随机试验方法,就可以避免这种异质性产生系统性的影响。就这个例子而言,若当初学校在组班时,严格遵循男女生随机分班的原则,则会保证每个班级的性别比例基本一致,进而就会避免关于成绩排名的辛普森悖论。不幸的,现实中的样本通常不是通过随机分配而产生的。例如,在教学实践中,考虑到学校整体的教学效果,班主任经验越丰富,其管理的班级越可能会被分配更多的男生。在经济学中,这被称为逆向选择;在计量经济学中,这被称为样本自选择。样本选择问题在实证研究中广泛存在,是一个非常重要的研究主题。

那么,我们该如何解决问题呢?其实方法很简单,那就是对男女生成绩进行分组比较,还张老师一个“公道”。不过,在更复杂的例子中,解决方案就没有如此简单了:


第一,在存在很多异质性的情况下,如何分组是比较麻烦的;

第二,若不进行统计检验,则很多比较结果或许只是偶然的,根本不值得我们严肃对待。


因此,我们需要一个具有一般性的解决此类问题的思路,这就是本文要讨论的DID(Difference-in-Differences)模型。接下来本文将以一个更详细的案例作为模型设定的具体背景,展开对DID模型的讨论。




 二、一个更详细的案例 


假设一家医学实验室选取若干男性与女性患者作为被试,就某种疾病的新旧两种疗法进行分组对比试验,结果如表1所示:

表1对比试验结果

表1显示,对于男女患者,新疗法的治愈率均低于旧疗法。然而奇怪的是,一旦对两种疗法的实验结果进行汇总,然后再进行综合对比(如表2所示),结论竟然反转,再次产生辛普森悖论。

表2  疗效汇总表

根据前文案例分析所获得的经验,此处产生辛普森悖论的原因是:第一,每一种疗法的疗效均存在明显的性别异质性——无论是新疗法还是旧疗法,男性治愈率均远高于女性;第二,男性患者主要使用新疗法而女性患者主要使用旧疗法,亦即男女患者没有被随机分配疗法。这两个原因共同导致了一个“不公平”的比较结果:新疗法的综合疗效主要由男性患者使用新疗法的疗效所主导,从而向60%靠拢,为50%;旧疗法的综合疗效主要由女性患者使用旧疗法的疗效所主导,从而向33%靠拢,为45%。见图1。

图1 新旧两种疗法治愈率的比较

在此有必要澄清一下关于随机分配疗法的细节问题。就本文的案例而言,若对每一位被试随机分配疗法,则接受某一疗法患者的性别比例应接近于总样本中患者的性别比例。具体来说,由于总样本中男女性别比为1:1(400:400),在使用新疗法或者旧疗法的患者中男女患者应接近各占一半,基本上不会出现某种性别的患者“扎堆”使用某种疗法这种现象。需要注意的是,不要将“对每一位被试随机分配疗法”与“对每一种疗法随机分配男女患者”相混淆。在后一种情况下,会出现某些患者没有使用任何疗法的现象。如果研究者预先召集一些患者作为志愿者来参加试验,结果却出现某些志愿者“轮空”的情况,那么这样的实验设计显然是失败的。

不过从根源上看,采取哪一种随机分配方式实际上主要取决于我们要研究的问题:若关注的问题是各种疗法的治愈率差异,则会召集很多患者,并对每一个患者随机分配疗法,而这些患者作为观测单元构成了样本;若关注的问题是患者性别对疗法治愈率的影响,则会收集很多疗法,并对每一种疗法随机分配男女患者,而这些疗法作为观测单元构成了样本。




 三、DID模型 


表1显示的对比试验结果实际上与如下虚拟变量模型相对应:

在这里,surv 取值为1表示治愈,取值为0表示未治愈;new 取值为1表示新疗法,取值为0表示旧疗法;male 取值为1表示男性,取值为0表示女性;为误差项。

通过对虚拟变量赋值,可知:

1)male=new=male·new=0,表示使用旧疗法的女性患者作为参考组,其治愈率等于0.33,亦即的估计值;


2)male=male·new=0,new=1,表示使用新疗法的女性患者,其治愈率等于0.2,与参考组的差距为0.2-0.33=-0.13,亦即的估计值;


3)male=1,new=male·new=0,表示使用旧疗法的男性患者,其治愈率等于0.8,与参考组的差距为0.8-0.33=0.47,亦即的估计值;


4)male=new=male·new=1表示使用新疗法的男性患者,其治愈率等于0.6,与参考组的差距为0.6-0.33=0.27,亦即的估计值。因此,的估计值等于0.27-0.47+0.13=-0.07。

综上,式(1)的估计结果就为式(2):

式(2)具有两方面的含义:

第一,对于每一种疗法,疗效均表现出性别异质性——应用于男性患者效果更好。具体来说,对于旧疗法,疗效的男女性别差异为;对于新疗法,与旧疗法相比,其疗效的男女性别差异有所缩小,缩小的绝对幅度为。因此,新疗法疗效的性别差异为0.47-0.07=0.4。

第二,对于每一种性别的患者,新疗法均劣于旧疗法。具体来说,对于女性患者,新旧疗法的疗效差异为;对于男性患者,与女性患者相比,新旧疗法的疗效差异进一步扩大,扩大的绝对幅度达。因此,新旧两种疗法在男性患者上的疗效差异达到-0.13-0.07=-0.2。

上述含义表明,对参数估计值有两种解释:第一,它代表了“性别异质性在两种疗法间的差异”;第二,它代表了“新旧疗法疗效差异在男女患者间的差异”。这两种解释的等价性很容易从下式看出:


(男性患者新疗法疗效-女性患者新疗法疗效)-(男性患者旧疗法疗效-女性患者旧疗法疗效)≡(男性患者新疗法疗效-男性患者旧疗法疗效)-(女性患者新疗法疗效-女性患者旧疗法疗效)


在这里,恒等号的左右两边分别代表“性别异质性在两种疗法间的差异”与“新旧疗法疗效差异在男女患者间的差异”。因为某种疗法疗效的性别异质性也属于一种差异,所以无论是恒等号的左边还是右边,它们均属于“差异的差异”(Difference-in-Differences)。于是,我们将称为DID估计量,将式(1)称为DID模型。

为了更好地从模型设定角度来理解辛普森悖论的本质,现在我们再来讨论关于表2的模型化处理方式。表2所显示的疗效汇总表可用式(3)表示:

通过比较模型(2)与(3)可知,模型(3)遗漏了表示性别变量 male 以及交互项 male·new ,从而产生一种特殊的内生性问题——遗漏变量偏误。一个颇具启发性的问题是,如果考虑到两种疗法疗效的性别差异,那么我们为何不建立如式(4)这样的模型呢?

答案在于,模型(4)隐含了两个约束性很强的重要假定:第一,每一种疗法疗效的性别异质性均为,无新旧疗法的差异;第二,新旧疗法疗效差异为,无男女患者的差异。根据前文的分析,这两个假定实际上是“孪生”假定,因为其中任意一个假定不成立均意味着另一个假定不成立。从模型的计量经济检验角度看,如果式(2)中交互项 male·new 所对应的估计系数具有统计显著性,那么这两个假定就应该被拒绝。

讨论到这里,从模型设定上看,辛普森悖论的本质昭然若揭——它属于模型设定时未控制异质性而产生的遗漏变量偏误。就本文案例而言,在控制异质性时,由于性别异质性在两种疗法间可能存在显著的差异,我们需要考虑对每一种疗法疗效的性别异质性均加以控制,而这正是DID模型中交互项的意义所在。




 四、结论性评价 


无论是班级成绩综合排名还是对各种疗法的疗效差异进行评估,本质上都是在进行比较分析。在此过程中,只有避免辛普森悖论,才能满足比较的公平性,从而得到可靠的评估结果。辛普森悖论根源于异质性与处理的非随机分配。在现实中,鉴于处理的非随机分配普遍存在,那么如何基于一个具有如此性质的现有样本,来控制异质性对评估结果的“污染”,就成为了一个很重要的问题。

作为解决辛普森悖论的一般性框架,DID模型不仅体现了观测单元的个体特征会影响处理效果这一事实,而且通过引入交互项,体现了异质性在各种处理间的差异。DID模型之所以能处理这一问题,就是因为辛普森悖论本质上属于一种特殊的内生性问题——遗漏变量偏误。通过DID模型解决辛普森悖论还带来一个额外的启示:不是所有的内生性问题都须采用工具变量估计。只要认清了问题产生的根源,解决问题的方案或许很简单,而这也很好地解释了,为什么DID模型这一简洁有力的方法会成为实证研究工具箱中的利器。







企研学术顾问 · 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。




►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

校招丨加入企研数据,未来更多奇遇!

工具&方法 | R资源网站“四件套”推荐:教程、制图、论坛和书籍

工具&方法丨关于交互项的那些事(二):画交互效应图原来如此简单

特别推荐丨老姚专栏:理解自然实验和DID方法——与现场实验比较的视角

数据呈现 | R制图:棒棒糖图,展示地区经济发展差异






数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:姚耀军 杨奇明推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存